#스펙큘레이터 디코딩

r/LocalLLaMA • 112일 전

IMP 8

초고속 스펙큘레이터 디코딩을 위한 블록 디퓨전 기술

z-lab 연구팀이 텍스트 생성 속도를 극적으로 높이는 새로운 접근법인 'DFlash'를 공개했습니다. 이 기술은 블록 디퓨전(Block Diffusion)을 활용해 기존의 한계를 벗어난 스펙큘레이터 디코딩(Speculative Decoding)을 구현하여 대형 언어 모델의 실제 추론 처리량을 크게 향상시킵니다. 프로젝트 페이지, 깃허브(GitHub) 오픈소스 코드, 허깅페이스(Hugging Face) 모델 데이터셋이 함께 공개되어 실무자들이 즉시 테스트하고 적용해볼 수 있습니다.

스펙큘레이터 디코딩 디퓨전 모델 추론 가속화